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上 节 课 ， 我 们 主要 简 述 了 机 器 学 习 的 定义 及 其 重要 性 ， 并 用 流程 图 的 形式 介绍 了 机 器 
学 习 的 整个 过 程 : 根据 模型 H， 使 用 演算 法 A， 在 训练 样本 D 上 进行 训练 ， 得 到 最 好 的 
h， 其 对 应 的 g 就 是 我 们 最 后 需要 的 机 器 学 习 的 模型 函数 ， 一 般 g 接 近 于 目标 国 数 f。 本 
节 课 将 继续 深入 探讨 机 器 学 习 问 题 ， 介 绍 感知 机 Perceptron 模 型 ， 并 推导 课程 的 第 一 
个 机 器 学 习 算 法 : Perceptron Learning Algorithm (PLA) 。 


一 、Perceptron Hypothesis Set 


引入 这 样 一 个 例子 : 某 银行 要 根据 用 户 的 年 龄 、 性 别 、 年 收入 等 情况 来 判断 是 否 给 该 
用 户 发 信用 卡 。 现 在 有 训练 样本 ， 即 之 前 用 户 的 信息 和 是 否 发 了 信用 卡 。 这 是 一 个 
典型 的 机 器 学 习 问 题 ， 我 们 要 根据 D， 通 过 A， 在 H 中 选择 最 好 的 h， 得 到 g， 接 近 目 标 
函数 f， 也 就 是 根据 先 验 知识 建立 是 否 给 用 户 发 信用 卡 的 模型 。 银 行 用 这 个 模型 对 以 后 
用 户 进 行 判断 : 发 信用 卡 (+1) ， 不 发 信用 卡 (-1) 。 


在 这 个 机 器 学 习 的 整个 流程 中 ， 有 一 个 部 分 非常 重要 : 就 是 模型 选择 ， 即 Hypothesis 
Set。 选 择 什么 样 的 模型 ， 很 大 程度 上 会 影响 机 器 学 习 的 效果 和 表现 。 下 面 介 绍 一 个 简 
单 常用 的 Hypothesis Set: 感知 机 (Perceptron) 。 


还 是 刚才 银行 是 否 给 用 户 发 信用 卡 的 例子 ， 我 们 把 用 户 的 个 人 信息 作为 特征 向 量 x， 仿 
总 共有 d 个 特征 ， 每 个 特征 赋予 不 同 的 权重 w， 表 示 该 特征 对 输出 (是 否 发 信用 卡 ) 的 
影响 有 多 大 。 那 所 有 特征 的 加 权 和 的 值 与 一 个 设 定 的 阔 什 threshold 进行 比较 : 大 于 这 
个 阅 值 ， 输 出 为 +1， 即 发 信用 卡 ; 小 于 这 个 阅 值 ， 输 出 为 -1， 即 不 发 信用 卡 。 感 知 机 
模型 ， 就 是 当 特 征 加 权 和 与 阅 值 的 差 大 于 或 等 于 0， 则 输出 h(x)=1; 当 特 征 加 权 和 与 阔 
值 的 差 小 于 0， 则 输出 h(x)=-1， 而 我 们 的 目的 就 是 计算 出 所 有 权 值 w 和 立 值 

threshold, 


e For x = (%, Xo,--- ,Xq) ‘features of customer’, compute a 
weighted ‘score’ and 


AP d 
approve credit if 2, w;x; > threshold 


Er d 
deny credit if aS w;x; < threshold 


e Y: {+1(good), —1(bad) }, 0 ignored—linear formula h € H are 


d 
h(x) = sign © ma) = wesholdj 


i=1 


为 了 计算 方便 ,通常 我 们 将 阅 值 threshold 当 做 wo， 引 入 一 个 Xo = 1 的 量 与 wo 相 乘 ， 
这 样 就 把 threshold 也 转变 成 了 权 值 wo， 简 化 了 计算 。h(x) 的 表达 式 做 如 下 变换 : 


d 
sign (E mx) -threshol) 
i=1 


d 
= sign (> vs) + (—threshold) - (+1) 


i=1 


h(x) 


Wo Xo 


d 
sign (> x) 
i=0 


= sign (w Tx) 


为 了 更 清晰 地 说 明 感 知 机 模型 ， 我 们 假设 Perceptrons 在 二 维 平面 上 ， 即 

h(x) = sign(wo + wızı 十 wara). HP, wo 十 wizi + wet, = 0 是 平面 上 
一 条 分 类 直线 ， 直 线 一 侧 是 正 类 (+1) ， 直 线 另 一 侧 是 负 类 (-1) 。 权 重 w 不 同 ， 对 
应 于 平面 上 不 同 的 直线 。 


Perceptrons in R? 
h(x) = sign (Wo + WıXı + WoX2) ] 











e customer features x: points on the plane (or points in R?) 

e labels y: o (+1), x (-1) 

e hypothesis h: lines (or hyperplanes in RÍ) 
—positive on one side of a line, negative on the other side 

e different line classifies customers differently 


那么 ， 我 们 所 说 的 Perceptron， 在 这 个 模型 上 就 是 一 条 直线 ， 称 之 为 linear(binary) 
classifiers。 注 意 一 下 ， 感 知 器 线性 分 类 不 限定 在 二 维 空间 中 ， 在 3D 中 ， 线 性 分 类 用 
平面 表示 ， 在 更 高 维度 中 ， 线 性 分 类 用 超 平面 表示 ， 即 只 要 是 形 如 ww x 的 线性 模型 就 
都 属于 linear(binary) classifiers。 


同时 ， 需 要 注意 的 是 ， 这 里 所 说 的 linear(binary) classifiers 是 用 简单 的 感知 器 模型 建立 
的 ， 线 性 分 类 问题 还 可 以 使 用 logistic regression 来 解决 ， 后 面 将 会 介绍 。 


—, Perceptron Learning Algorithm(PLA) 


根据 上 一 部 分 的 介绍 ， 我 们 已 经 知道 了 hypothesis set 由 许多 条 直线 构成 。 接 下 来 ,我 
们 的 目的 就 是 如 何 设计 一 个 演算 法 A， 来 选择 一 个 最 好 的 直线 ， 能 将 平面 上 所 有 的 正 
类 和 负 类 完全 分 开 ， 也 就 是 找到 最 好 的 g， 使 g ~ f. 


如 何 找到 这 样 一 条 最 好 的 直线 呢 ? 我 们 可 以 使 用 逐 点 修正 的 思想 ， 首 先 在 平面 上 随意 
取 一 条 直线 ， 看 看 哪些 点 分 类 错误 。 然 后 开始 对 第 一 个 错误 点 就 行 修正 ， 即 变换 直线 
的 位 置 ， 使 这 个 错误 点 变 成 分 类 正确 的 点 。 接 着 ， 再 对 第 二 个 、 第 三 个 等 所 有 的 错误 
分 类 点 就 行 直 线 纠正 ， 直 到 所 有 的 点 都 完全 分 类 正确 了 ， 就 得 到 了 最 好 的 直线 。 这 
种 “逐步 修正 ”"， 就 是 PLA 思 想 所 在 。 


For f= 0,1,..- 
O find a mistake of w; called (Xat); Yn(+)) 


sign (w7 Xi) F Ynt) 


@ (try to) correct the mistake by 





Wi+1 + Wi + Yn(t)Xn(t) 


... until no more mistakes 
return last w (called wpa) as g 





下 面 介绍 一 下 PLA 是 怎么 做 的 。 首 先 随机 选择 一 条 直线 进行 分 类 。 然 后 找到 第 一 个 分 
类 错误 的 点 ， 如 果 这 个 点 表示 正 类 ， 被 误 分 为 负 类 ， 即 wf znt < 0， 那 表示 w 和 x 夹 
角 大 于 90 度 ， 其 中 w 是 直线 的 法 向 量 。 所 以 ，x 被 误 分 在 直线 的 下 侧 (相对 于 法 向 量 ， 
法 向 量 的 方向 即 为 正 类 所 在 的 一 侧 ) ， 修 正 的 方法 就 是 使 w 和 x 夹 角 小 于 90 度 。 通 常 做 
法 是 ww + w+ yt, y= 1， 如 图 右上 角 所 示 ， 一 次 或 多 次 更 新 后 的 w 十 yz 与 x 夹 角 
小 于 90 度 ， 能 保证 x 位 于 直线 的 上 侧 ， 则 对 误 分 为 负 类 的 错误 点 完成 了 直线 修正 。 


同 理 ， 如 果 是 误 分 为 正 类 的 点 ， 即 w7 ra > 0， 那 表示 w 和 x 夹 角 小 于 90 度 ， 其 中 w 
是 直线 的 法 向 量 。 所 以 ，x 被 误 分 在 直线 的 上 侧 ， 修 正 的 方法 就 是 使 w 和 x 夹 角 大 于 90 
度 。 通 常 做 法 是 w + w+ ya, y= 一 1， 如 图 右 下 角 所 示 ， 一 次 或 多 次 更 新 后 的 
w+ yz 与 x 夹 角 大 于 90 度 ， 能 保证 x 位 于 直线 的 下 侧 ， 则 对 误 分 为 正 类 的 错误 点 也 完 
成 了 直线 修正 。 


按照 这 种 思想 ， 遇 到 个 错误 点 就 进行 修正 ,不 断 迭 代 。 要 注意 一 点 : 每 次 修正 直线 ， 
可 能 使 之 前 分 类 正确 的 点 变 成 错误 点 ， 这 是 可 能 发 生 的 。 但 是 没关系 ,不断 迭代 ,不 
断 修正 ， 最 终 会 将 所 有 点 完全 正确 分 类 (PLA 前 提 是 线性 可 分 的 ) 。 这 种 做 法 的 思想 
是 “ 知 错 能 改 "”， 有 和 句 话 形容 它 : “A fault confessed is half redressed.” 


实际 操作 中 ， 可 以 一 个 点 一 个 点 地 人 遍历 ， 发 现 分 类 错误 的 点 就 进行 修正 ， 直 到 所 有 点 
全 部 分 类 正确 。 这 种 被 称 为 Cyclic PLA, 


For t= 0,1,... 
O find the next mistake of w; called (X (+), Yn(1)) 


sign (wr Xan) F Y nt) 
© correct the mistake by 
WiH1 + We + Yn(t)Xn(t) 


... until a full cycle of not encountering mistakes 


下 面 用 图 解 的 形式 来 介绍 PLA 的 修正 过 程 : 


x initially 
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对 PLA， 我 们 需要 考虑 以 下 两 个 问题 : 

。 PLA 和 迭代 一 定 会 停 下 来 吗 ? 如果 线性 不 可 分 怎么 办 ? 

。 PLA 停 下 来 的 时 候 ， 是 否 能 保证 六 六 9? 如 果 没 有 停 下 来 ， 是 否 有 /一 9? 
=, Guarantee of PLA 


PLA 什 么 时 候 会 停 下 来 呢 ? 根据 PLA 的 定义 ， 当 找到 一 条 直线 ， 能 将 所 有 平面 上 的 点 
都 分 类 正确 ， 那 么 PLA 就 停止 了 。 要 达到 这 个 终止 条 件 ， 就 必须 保证 D 是 线性 可 分 
(linear separable) 。 如 果 是 非 线性 可 分 的 ， 那 么 ，PLA 就 不 会 停止 。 








(linear separable) (not linear separable) (not linear separable 


对 于 线性 可 分 的 情况 ， 如 果 有 这 样 一 条 直线 ， 能 够 将 正 类 和 负 类 完全 分 开 ， 令 这 时 候 


Yny Wi Xn(t) >min YnW} Xn > 0 


PLA 会 对 每 次 错误 的 点 进行 修正 ， 更 新 权重 wt+1 的 值 ， 如 果 wti+1 与 wj 越 来 越 接近 ， 
数学 运算 上 就 是 内 积 越 大 ， 那 表示 wt+1 是 在 接近 目标 权重 ， 证 明 PLA 是 有 学 习 效 
果 的 。 所 以 ， 我 们 来 计算 w+1 与 wj 的 内 积 : 


7 T 
WiiWii = Wi (We + Yn(1)Xn(1)) 
w/w; + min YnW} xn 


V 


wlw: +0. 


V 


MESES, wu IPR Sw AARIBBAT. PAAT w 
更 接近 wy ， 但 是 内 积 更 大 ， 可 能 是 向 量 长 度 更 大 了 ， 不 一 定 是 向 量 间 角 度 更 小 。 所 
以 ， 下 一 步 ， 我 们 还 需要 证 明 wt ;1 与 ww 向 量 长 度 的 关系 : 


w; changed only when mistake 
> sign (WF Race) % Ya) E Yn( Wi Xn < O | 
e mistake ‘limits’ ||w;||2 growth, even when updating with ‘longest’ xn 


[Wi + Ye) ns ll? 
= well? + 2yacyWe Xna + lY ns ll? 
lwll? +0 + lyncyXncn I? 

will? + max || Xnl|? 


2 
[w+ | 


IA IA 





wt 只 会 在 分 类 错误 的 情况 下 更 新 ， 最 终 得 到 的 


的 增 量 值 不 超过 
。 也 就 是 说 ，w: 的 增长 被 限制 了 ，wi+1 与 wi 向 量 长 度 不 会 差别 太 大 ! 














We BHE] [ew 








maz!||x? 


如 果 令 初始 权 值 wo = 0， 那 么 经 过 T 次 错误 修正 后 ， 有 如 下 结论 : 


we w 
on. > /T - constant 
wrl| wr 


下 面 贴 出 来 该 结论 的 具体 推导 过 程 : 


Given 3 conditions 
1 wy perfectly fitting those data means: 


Un(t) WF Tnt) > min YnWF En >0 (1) 
2 w, changed only when making mistakes means: 
sign(wi Lat) É Yn)  Yn(tyWt Laie) < 0 (2) 
3 we make corrections by: 
We = We-1 + Yn(t) Tn(t) (3) 


We want to prove after t mistake corrections starting from 0, we will get: 


wy wy 
— — > VT - constant 
[feo lwll 


it means 2 things: 

1 Because the above equation is less equal than 1, we also prove the T will 
have upper boundary, thus the algorithm will stop at some time; 

2 the left part the above equation means the angle of wy and w+, and their 
angle is decreasing, in other words w, is approaching wy, thus we are on the 
right way to get the solution 

Here is the prove: 

the primary principle is to replace all the variables which in above equations 
are wr and |[w;|| 

for w, we have: 


wi = wy (w + Yn(t-1)Tn(t-1)) using (3) 
> wy Wet +min Yn WF En using (1) 
n 
> w+T-min yn WF En applying T times 
n 
> T- min Yn WI En 
n 
for ||w;|| we have: 
2 2 ; 
|| well = || wea + Yn(t-1)Tn(t-1) || using (3) 


2 2 
lw: + Zn (1-1) Tn(t-1) + l|¥n(t—1)2n(e—-1)]| 


2 2 y 

< lwll? +0+ |[yne—12n(e-1)|| using (2) 
2 2 

< |lwe-al| + maz llznll 

< 


2 2 
||wo| +T. mas læn l] =T. qe læn || 


applying above 2 conclusions to the left part of the equation we finally get: 


w1 Wy f ie min Yn WF Tn 
jw y || [wr | wy | . | w | 








T - min Yn w% a 
n 











w7 | . VT - maz ||zn| 
Í ri 

IT. mi Ta 
V MIN Yn Ws Ly _ 
= = VT - constant 











wr | “max lEn || 


z 
w La 3 n 
Because the Te < 1, we finally have: 


vVT-.min yn we Ty 








oe 
[w3 | maz lEn || 
max za 人. | > 
& -< = = E 
eis 3 7 7 
min“ Y, Wi En p 


上 述 不 等 式 左边 其 实 是 wz 与 wj 夹 角 的 余弦 值 ， 随 着 T 增 大 ， 该 余弦 值 越 来 越 接近 1， 
即 wz 与 wjy 越 来 越 接近 。 同 时 ， 需 要 注意 的 是 ，VT. constant < 1， 也 就 是 说 ， 

和 迭代 次 数 T 是 有 上 界 的 。 根 据 以 上 证 明 ， 我 们 最 终 得 到 的 结论 是 : wt+1 与 wj 的 是 随 着 
和 迭代 次 数 增加 ， 逐 渐 接 近 的 。 而 且 ，PLA 最 终 会 停 下 来 (因为 TH 有 上 界 ) ， 实 现 对 线性 
可 分 的 数据 集 完全 分 类 。 


四 、Non-Separable Data 


上 一 部 分 ， 我 们 证 明了 线性 可 分 的 情况 下 ，PLA 是 可 以 停 下 来 并 正确 分 类 的 ， 但 对 于 
非 线 性 可 分 的 情况 ，wj 实 际 上 并 不 存在 ， 那 么 之 前 的 推导 并 不 成 立 ，PLA 不 一 定 会 停 
下 来 。 所 以 ，PLA 虽 然 实现 简单 ， 但 也 有 缺点 : 


simple to implement, fast, works in any dimension d | 













e ‘assumes’ linear separable D to halt 
—property unknown in advance (no need for PLA if we know wy) 


e not fully sure how long halting takes (p depends on wy) 
—though practically fast 


对 于 非 线 性 可 分 的 情况 ， 我 们 可 以 把 它 当 成 是 数据 集 D 中 掺 杂 了 一 下 noise， 事 实 上 ， 
大 多 数 情况 下 我 们 遇 到 的 D， 都 或 多 或 少 地 括 杂 了 noise。 这 时 ， 机 器 学 习 流 程 是 这 样 
的 : 


unknown target function 
f: X> Y 
+ noise 


(ideal credit approval formula) 























training examples =. final hypothesis 
D: (X1,Y1),--- , (XN, YN ji ii gaf 


(historical records in bank) (‘learned’ formula to be used) 


hypothesis set 
H 


(set of candidate formula) 


TIRES A BATTLE RAS, BARBERO SALEA, MENA 
误 点 ， 取 错误 点 的 个 数 最 少时 的 权重 w: 


e assume ‘little’ noise: jn = f(xn) usually 
e ifso,g~fonDs y, = 9(X,) usually 
e how about 
N 
Wg + argmin z [yn # sign(w7xn)| 
1 一 1 





一 NP-hard to solve, unfortunately 





事实 证 明 ， 上 面 的 解 是 NP-hard 问 题 ， 难 以 求解 。 然 而 ， 我 们 可 以 对 在 线性 可 分 类 型 
中 表现 很 好 的 PLA 做 个 修改 ， 把 它 应 用 到 非 线性 可 分 类 型 中 ， 获 得 近似 最 好 的 9。 


修改 后 的 PLA 称 为 Packet Algorithm。 它 的 算法 流程 与 PLA 基 本 类 似 ， 首 先 初始 化 权重 
wo， 计 算出 在 这 条 初始 化 的 直线 中 ， 分 类 错误 点 的 个 数 。 然 后 对 错误 点 进行 修正 ,更 
新 w， 得 到 一 条 新 的 直线 ， 在 计算 其 对 应 的 分 类 错误 的 点 的 个 数 ， 并 与 之 前 错误 点 个 
数 比 较 ， 取 个 数 较 小 的 直线 作为 我 们 当前 选择 的 分 类 直线 。 之 后 ， 再 经 过 n 次 迭代 ， 不 
断 比 较 当 前 分 类 错误 点 个 数 与 之 前 最 少 的 错误 点 个 数 比较 ， 选 择 最 小 的 值 保 存 。 直 到 
迭代 次 数 完成 后 ， 选 取 个 数 最 少 的 直线 对 应 的 w， 即 为 我 们 最 终 想 要 得 到 的 权重 值 。 


initialize pocket weights w 
For t=0,1,--- 


O find a (random) mistake of w; called (Xni); Yn(1)) 
© (try to) correct the mistake by 


Wir < We + Yn(t)Xn(t) 


O if w,,, makes fewer mistakes than w, replace W by w;..; 


...until enough iterations 
return w (called Wpocxer) as g 


如 何 判断 数据 集 D 是 不 是 线性 可 分 ? 对 于 二 维 数据 来 说 ， 通 常 还 是 通过 肉眼 观察 来 判 
断 的 。 一 般 情况 下 ，Pocket Algorithm 要 比 PLA 速 度 慢 一 些 。 
五 、 总 结 


本 节 课 主要 介绍 了 线性 感知 机 模型 ， 以 及 解决 这 类 感知 机 分 类 问题 的 简单 算法 : 
PLA。 我 们 详细 证 明了 对 于 线性 可 分 问题 ，PLA 可 以 停 下 来 并 实现 完全 正确 分 类 。 对 
于 不 是 线性 可 分 的 问题 ， 可 以 使 用 PLA 的 修正 算法 Pocket Algorithm 来 解决 。 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《 机 器 学 习 基石 》 课 程 。 


